1
Статистика как случайные величины: выборочное распределение
MATH003Lesson 4
00:00
В статистическом выводе мы переходим от наблюдения отдельных данных к анализу **статистики** — функционального отображения $Y = h(X_1, X_2, \dots, X_n)$ выборочной последовательности. Поскольку исходная выборка состоит из случайных величин, сама статистика является случайной величиной, а её закон вероятности называется **выборочным распределением**.

Статистика как отображение

Статистика формально определяется как функция $h: \mathbb{R}^n \to \mathbb{R}$. Мы определяем вероятность того, что статистика попадает в множество $B$, с использованием прообраза:

$$h^{-1} B = \{(x_1, x_2, \dots, x_n) : h(x_1, x_2, \dots, x_n) \in B\}$$

Основа для независимых и одинаково распределённых (i.i.d.) переменных

Для выборки из независимых и одинаково распределённых (i.i.d.) случайных величин совместная вероятность конкретной точки выборки $(x_1, \dots, x_n)$ равна произведению их маргинальных вероятностей: $p(x_1)p(x_2)\dots p(x_n)$. Это произведение служит весом для каждой точки при вычислении общей вероятности того, что статистика примет конкретное значение.

Пример 4.1.1: Геометрическое среднее

Рассмотрим дискретную популяцию, где $p_X(1) = 1/2$, $p_X(2) = 1/4$, $p_X(3) = 1/4$. Мы выбираем выборку объёма $n=2$ ($X_1, X_2$) и определяем нашу статистику как геометрическое среднее: $Y_2 = (X_1 X_2)^{1/2}$.

Чтобы найти распределение $Y_2$, перечислим все 9 возможных пар $(X_1, X_2)$, вычислим их совместную вероятность и соответствующее значение $Y_2$:

Пара $(x_1, x_2)$Вероятность $P(x_1)P(x_2)$$Y = \sqrt{x_1 x_2}$
(1, 1)1/41.000
(1, 2), (2, 1)1/8 + 1/8 = 1/41.414
(1, 3), (3, 1)1/8 + 1/8 = 1/41.732
(2, 2)1/162.000
(2, 3), (3, 2)1/16 + 1/16 = 1/82.449
(3, 3)1/163.000

Точные и асимптотические распределения

Прежде чем переходить к предельным теоремам, таким как центральная предельная теорема (CLT), необходимо освоить «точное распределение». Это подразумевает вычисление конкретной функции массы или плотности вероятности для статистики при малом конечном $n$. Когда аналитическая форма становится непригодной, мы используем численные моделирования, такие как **приближения Монте-Карло**.

🎯 Основной принцип
Выборочное распределение — это распределение случайной величины, соответствующей функции некоторой последовательности независимых и одинаково распределённых величин. Оно служит мостом между первичными данными и научным выводом.